Transição para Visão Computacional
Hoje, passamos do tratamento de dados simples e estruturados com camadas lineares básicas para lidar com dados de imagem de alta dimensão. Uma única imagem colorida introduz uma complexidade significativa que arquiteturas padrão não conseguem gerenciar de forma eficiente. O aprendizado profundo para visão computacional exige uma abordagem especializada: a Rede Neural Convolucional (CNN).
1. Por que Redes Neurais totalmente conectadas (FCNs) falham
Em uma FCN, cada pixel de entrada deve ser conectado a cada neurônio na camada subsequente. Para imagens de alta resolução, isso resulta em uma explosão computacional, tornando o treinamento inviável e a generalização pobre devido ao superajuste extremo.
- Dimensão da Entrada:Uma imagem RGB padrão de $224 \times 224$ resulta em $150.528$ características de entrada ($224 \times 224 \times 3$).
- Tamanho da Camada Oculta:Se a primeira camada oculta usar 1.024 neurônios.
- Parâmetros Totais (Camada 1):Aproximadamente $154$ milhões de pesos ($150.528 \times 1024$), apenas para o primeiro bloco de conexões, exigindo memória e tempo de processamento massivos.
A Solução CNN
As CNNs resolvem o problema de escalabilidade das FCNs explorando a estrutura espacial das imagens. Elas identificam padrões (como bordas ou curvas) usando filtros pequenos, reduzindo o número de parâmetros por ordens de grandeza e promovendo robustez.
TERMINALbash — modelo-env
> Pronto. Clique em "Executar" para executar.
>
INSPECTOR DE EFICIÊNCIA DE PARÂMETROS Ao Vivo
Execute a comparação para visualizar os contadores de parâmetros.
Questão 1
Qual é o principal benefício de usar Campos Receptivos Locais nas CNNs?
Questão 2
Se um filtro $3 \times 3$ for aplicado sobre toda a imagem, qual conceito central da CNN está sendo utilizado?
Questão 3
Qual componente da CNN é responsável por reduzir progressivamente as dimensões espaciais (largura e altura) dos mapas de características?
Desafio: Identificando Componentes-Chave da CNN
Relacione mecanismos da CNN aos seus benefícios funcionais.
Precisamos construir um modelo de visão altamente eficiente em parâmetros e capaz de reconhecer um objeto mesmo que ele se desloque levemente na imagem.
Etapa 1
Qual mecanismo garante que a rede consiga identificar uma característica (como uma linha diagonal) independentemente de onde ela esteja no quadro?
Solução:
Pesos Compartilhados. Usando o mesmo filtro em todas as posições, a rede aprende invariância à translação.
Pesos Compartilhados. Usando o mesmo filtro em todas as posições, a rede aprende invariância à translação.
Etapa 2
Qual escolha arquitetônica permite que uma CNN detecte características com menos parâmetros do que uma FCN?
Solução:
Campos Receptivos Locais (ou Conectividade Esparsa). Em vez de se conectar a cada pixel, cada neurônio se conecta apenas a uma pequena região localizada da entrada.
Campos Receptivos Locais (ou Conectividade Esparsa). Em vez de se conectar a cada pixel, cada neurônio se conecta apenas a uma pequena região localizada da entrada.
Etapa 3
Como a estrutura da CNN leva ao aprendizado hierárquico de características (por exemplo, bordas $\to$ cantos $\to$ objetos)?
Solução:
Camadas Empilhadas.As camadas iniciais aprendem características simples (bordas) usando convolução. Camadas mais profundas combinam as saídas das camadas anteriores para formar características complexas e abstratas (objetos).
Camadas Empilhadas.As camadas iniciais aprendem características simples (bordas) usando convolução. Camadas mais profundas combinam as saídas das camadas anteriores para formar características complexas e abstratas (objetos).